Alineación de LLMs en test-time con muestreo de importancia en pre-logits
AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.
AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.